In the presence of noisy labels, designing robust loss functions is critical for securing the generalization performance of deep neural networks. Cross Entropy (CE) loss has been shown to be not robust to noisy labels due to its unboundedness. To alleviate this issue, existing works typically design specialized robust losses with the symmetric condition, which usually lead to the underfitting issue. In this paper, our key idea is to induce a loss bound at the logit level, thus universally enhancing the noise robustness of existing losses. Specifically, we propose logit clipping (LogitClip), which clamps the norm of the logit vector to ensure that it is upper bounded by a constant. In this manner, CE loss equipped with our LogitClip method is effectively bounded, mitigating the overfitting to examples with noisy labels. Moreover, we present theoretical analyses to certify the noise-tolerant ability of LogitClip. Extensive experiments show that LogitClip not only significantly improves the noise robustness of CE loss, but also broadly enhances the generalization performance of popular robust losses.
translated by 谷歌翻译
Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
信仰传播(BP)是针对图形模型的各种推理任务的重要消息算法,包括解决约束优化问题(COPS)。已经表明,BP可以通过在发送新消息(即抑制作用)之前将旧消息和新消息混合在各种基准测试中实现最先进的性能。但是,现有的调整BP静态阻尼因子的方法不仅在费力,而且损害其性能。此外,现有的BP算法在撰写新消息时平均处理每个变量节点的邻居,这也限制了其探索能力。为了解决这些问题,我们无缝地集成了BP,封闭式复发单元(GRU)和图形注意网络(GATS),以推理构成新的BP消息的动态权重和阻尼因子,以推理有关动态权重和阻尼因子。我们的模型,深切的信念传播(DABP),将因子图和每次迭代中的BP消息作为输入,并通过GRUS和GATs渗透最佳权重和阻尼因子,然后是多头注意力层。此外,与现有的基于神经的BP变体不同,我们提出了一种新颖的DABP的自我监督学习算法,其解决方案成本不需要昂贵的培训标签,并且还可以通过有效的在线学习避免常见的分发问题。广泛的实验表明,我们的模型大大优于最先进的基线。
translated by 谷歌翻译
工业推荐系统通常提出包含来自多个子系统的结果的混合列表。实际上,每个子系统都使用自己的反馈数据进行了优化,以避免不同子系统之间的干扰。但是,我们认为,由于\ textit {数据稀疏},此类数据使用可能会导致次优的在线性能。为了减轻此问题,我们建议从包含网络尺度和长期印象数据的\ textit {super-domain}中提取知识,并进一步协助在线推荐任务(下游任务)。为此,我们提出了一个新颖的工业\ textbf {k} nowl \ textbf {e} dge \ textbf {e} xtraction和\ textbf {p} lugging(\ textbf {keep})框架,这是一个两阶段的框架其中包括1)超级域上有监督的预训练知识提取模块,以及2)将提取的知识纳入下游模型的插件网络。这使得对在线推荐的逐步培训变得友好。此外,我们设计了一种有效的经验方法,用于在大规模工业系统中实施Keep时保持和介绍我们的动手经验。在两个现实世界数据集上进行的实验表明,保持可以实现有希望的结果。值得注意的是,Keep也已部署在阿里巴巴的展示广告系统上,带来了$+5.4 \%$ CTR和$+4.7 \%\%$ rpm的提升。
translated by 谷歌翻译
对于许多下游任务(例如,情感分析,关系检测等),脑电图(EEG)和语言已被广泛探索。研究这两个领域的多模式方法尚未得到很好的探索,即使近年来,多模式学习被认为比单峰对应物更强大。在这项研究中,我们希望探索脑电图与语言之间的关系和依赖性,即一个领域如何反映和代表另一个领域。为了研究表示级别的关系,我们引入了MTAM(一种多模式变压器对准模型),以观察两种模式之间的协调表示,因此采用了转换表示来进行下游应用。我们使用各种关系对齐的寻求对准技术,例如规范相关性分析和Wasserstein距离,作为转化低级语言的损失函数,并将EEG特征转化为高级转化的特征。在下游应用程序,情感分析和关系检测上,我们在两个数据集(Zuco和k-emocon)上实现了新的最新结果。我们的方法在K-Emocon的情感分析中获得了16.5%的F1得分提高,对Zuco的情感分析的26.6%,以及对Zuco的关系检测的31.1%。此外,我们通过以下方式提供对性能改进的解释:(1)可视化原始特征分布和变换的特征分布,显示对齐模块发现和编码脑电图与语言之间的关系的有效性; (2)可视化单词级别和句子级的脑电图对齐权重,显示不同语言语义和脑电图频率特征的影响; (3)可视化大脑地形图,以提供有关大脑区域中脑电图和语言反应的连通性的直观演示。
translated by 谷歌翻译
增强现有传输线是对抗传输拥塞并保证传输安全性随需求增加并增强可再生能源的有用工具。这项研究涉及选择其容量应扩大的线路的选择,以及从独立系统操作员(ISO)的角度来看,通过考虑传输线约束以及发电和需求平衡条件,并结合坡道 - 上升和启动坡道率,关闭坡道速率,坡度降低率限制以及最小降低时间。为此,我们开发了ISO单元承诺和经济调度模型,并将其作为混合整数线性编程(MILP)问题的右侧不确定性多个参数分析。我们首先放松二进制变量,以连续变量并采用拉格朗日方法和Karush-Kuhn-Tucker条件,以获得最佳的解决方案(最佳决策变量和目标函数)以及与主动和无效约束相关的关键区域。此外,我们通过确定每个节点处的问题上限,然后比较上限和下限之间的差异,并在决策制造商中达到近似最佳解决方案,从而扩展传统分支和界限方法,以解决大规模MILP问题。可耐受的误差范围。另外,目标函数在每行参数上的第一个衍生物用于告知各行的选择,以简化拥塞和最大化社会福利。最后,通过平衡目标函数的成本率和阵容升级成本来选择容量升级的量。我们的发现得到了数值模拟的支持,并为传输线计划提供了决策指导。
translated by 谷歌翻译
我们利用离线增强学习(RL)模型在现实世界中有预算限制的情况下进行连续的目标促销。在我们的应用程序中,移动应用程序旨在通过向客户发送现金奖金并在每个时间段内控制此类现金奖金的成本来促进客户保留。为了实现多任务目标,我们提出了预算限制的加强学习,以进行顺序促销(BCRLSP)框架,以确定要发送给用户的现金奖金的价值。我们首先找出目标策略和相关的Q值,这些Q值是使用RL模型最大化用户保留率的。然后添加线性编程(LP)模型以满足促销成本的限制。我们通过最大化从RL模型中汲取的动作的Q值来解决LP问题。在部署期间,我们将离线RL模型与LP模型相结合,以在预算约束下生成强大的策略。使用在线和离线实验,我们通过证明BCRLSP达到的长期客户保留率和比各种基线更低的成本来证明我们方法的功效。利用近乎实时的成本控制方法,提出的框架可以轻松地使用嘈杂的行为政策和/或满足灵活的预算约束。
translated by 谷歌翻译
离线增强学习(离线RL)是一个新兴领域,由于其能够从早期收集的数据集中学习行为,该领域最近开始在各个应用领域中引起关注。当与环境进一步交互(计算或其他方式),不安全或完全不可行时,必须使用记录数据。离线RL被证明非常成功,为解决以前棘手的现实世界问题铺平了道路,我们旨在将此范式推广到多代理或多人游戏设置。由于缺乏标准化数据集和有意义的基准,因此在这一领域进行的研究很少,因为进展受到阻碍。在这项工作中,我们将术语“离线平衡发现(OEF)”创造,以描述该区域并构建多个数据集,这些数据集由使用多种既定方法在各种游戏中收集的策略组成。我们还提出了一种基准方法 - 行为克隆和基于模型的算法的合并。我们的两种基于模型的算法 - OEF-PSRO和OEF-CFR - 是在离线学习的背景下,广泛使用的平衡发现算法深入CFR和PSRO的适应。在经验部分中,我们评估了构造数据集上基准算法的性能。我们希望我们的努力可以帮助加速大规模平衡发现的研究。数据集和代码可在https://github.com/securitygames/oef上获得。
translated by 谷歌翻译
我们正式化并研究通过嵌入设计凸替代损失函数的自然方法,例如分类,排名或结构化预测等问题。在这种方法中,一个人将每一个有限的预测(例如排名)嵌入$ r^d $中的一个点,将原始损失值分配给这些要点,并以某种方式“凸出”损失以获得替代物。我们在这种方法和多面体(分段线性凸)的替代损失之间建立了牢固的联系:每个离散损失都被一些多面体损失嵌入,并且每个多面体损失都嵌入了一些离散的损失。此外,嵌入会产生一致的链接功能以及线性替代遗憾界限。正如我们用几个示例所说明的那样,我们的结果具有建设性。特别是,我们的框架为文献中各种多面体替代物以及不一致的替代物提供了简洁的证据或不一致的证据,它进一步揭示了这些代理人一致的离散损失。我们继续展示嵌入的其他结构,例如嵌入和匹配贝叶斯风险的等效性以及各种非算术概念的等效性。使用这些结果,我们确定与多面体替代物一起工作时,间接启发是一致性的必要条件也足够了。
translated by 谷歌翻译